Warsztaty badawcze

Praca domowa 3

Paweł Morgen

0. Wczytanie danych oraz modelu

1. Wybór obserwacji i wyliczenie predykcji

2. Dekompozycja predykcji dla wybranej obserwacji

Używamy profili Ceteris Paribus.

Wszystkie poniższe wnioski odnoszą się do obserwacji podobnych wybranej obserwacji.

W przypadku tej obserwacji (oraz obserwacji jej podobnych) wiele zmiennych nie ma większego wkładu - profile Ceteris Paribus są linią horyzontalną. Dzieje się tak dla predyktorów median_age, total_bedrooms, population.

Ciekawe są profile dla szerokości (latitude) i długości geograficznej (longitude). Wynika z nich, że podobne nieruchomości jak ta wybrana, ale położona dalej na północ (większe latitude) miałyby mniejszą wartość, a na południe - większą. Podobnie na wschód (mniejsza wartość longitude - jesteśmy na półkuli zachodniej. Mniejsza długość odpowiada przesunięciu się bliżej GreenWich - bliżej Wielkiej Brytanii - na wschód) mamy mniejsza ceny, niż na zachodzie. To łatwo wytłumaczyć położeniem oceanu oraz większych aglomeracji.

Profil dla zmiennej households również niesie informację. Okazuje się, że do pewnego poziomu ta zmienna ma znaczenie i im więcej rodzin w okolicy, tym lepiej, ale później układa się na tym samym poziomie.

Profil dla zmiennej median_income zgadza się z intuicją - większe zarobki idą w parze z droższymi domostwami.

3. Porównanie dekompozycji dla różnych obserwacji

Skupmy się na różnicach dla dwóch zmiennych: latitude oraz INLAND.

Zależność latitude od prognozowanej zmiennej jest nieco bardziej skomplikowana niż dla pierwszej obserwacji. Wciąż widzimy, że na południe byłoby drożej, ale na północ również (choć w mniejszym stopniu). Widzimy również o wiele większą zależność od zmiennej INLAND - gdyby nie była aktywna (nieruchomość nie stałaby w głębi lądu), cena by wzrosła. Oczywiście, trzeba uważać z taką interpretacją - aby nieruchomość nie stała w głębi lądu, trzeba by ją przesunąć - a to zmieniłoby wartości latitude i longitude, a pośrednio również inne.

4. Komentarz

Profile Ceteris Paribus są ładne i czytelne, ale ich interpretacja może być problematyczna. Wyciąganie jakichkolwiek wniosków z wykresów ma uzasadnienie tylko dla podobnych obserwacji jak ta, na podstawie której wykonano profil. Przez to łatwo o wnioski błędne (stosowanie ich do znacząco innych obserwacji) oraz wykonywanie niektórych z nich nie ma sensu (na przykład dla zmiennej INLAND - nie ma sensu mówić o sytuacji, gdy nie zmienia się położenie geograficzne, a zmienia się odległość od oceanu). Tym niemniej, dla niektórych zmiennych model zachowuje się przewidywalnie (przynajmniej w przypadku 5 sprawdzonych przeze mnie obserwacji) - mowa o zmiennych longitude oraz median_income. Jest to wynik wprost proszący o przyjrzenie się bliżej przy pomocy narzędzia patrzącego na cały model, a nie pojedyncze obserwacje.